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基于 故障 注入 的 可 靠 性 评估 研究 平台 综述 


妆 瑜 李 晓 维 


摘要 : 可 靠 性 评估 研究 平台 的 主要 目的 是 快速 准确 地 评估 各 类 故障 对 计算 系统 可 靠 性 的 影响 ， 以 便 为 系统 
设计 人 员 提 供 定量 分 析 数 据 。 本 文 概述 了 计算 系统 的 可 靠 性 评估 方法 ， 着 重 介绍 了 国内 外 在 基于 故障 注入 
的 可 靠 性 评估 平台 方面 开展 的 代表 性 工作 ， 同 时 介绍 了 本 课题 组 在 相关 研究 工作 上 的 进展 。 
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随 着 高 端 计算 系统 (High-End Computing System) 采用 数 以 万 计 的 高 性 能 处 理 器 ， 利 月 
海量 并 行 获得 每 秒 百 万 亿 次 甚至 千 万 亿 次 浮 点 运算 能 力 〈PetaFlops/s) 的 峰值 性 能 ， 系 统 
均 无 故障 时 间 (Mean Time Between Failure， 简 称 MTBTO 也 随 着 系统 硬件 规模 的 日 益 扩 大 
而 不 断 下 降 。 图 1 显示 了 单个 部 件 每 

小 时 失效 概率 为 0.0001, 0.00001 和 £ 
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扰 以 及 辐射 等 各 种 噪声 干扰 变 得 更 加 

敏感 。 上 述 两 方面 因素 综合 作用 ， 导 图 1. 高 端 计算 系 统 的 平均 无 故障 时 间 站 
致 可 靠 性 问题 成 为 高 端 计算 系统 面临 
的 六 大 严峻 挑战 之 一 趾 。 搭建 可 靠 性 评估 研究 平台 的 主要 目的 就 是 快速 准确 地 评估 各 类 故障 
对 高 端 计 算 系 统 可 靠 性 的 影响 ， 以 便 为 系统 设计 人 员 提 供 定量 分 析 数 据 。 


计算 系统 的 可 靠 性 评估 方法 包括 基于 测量 的 方法 、 基 于 解析 模型 的 方法 和 基于 故障 注入 
的 方法 。 基于 测量 的 方法 是 指 在 运行 实际 工作 负载 的 过 程 中 , 测量 实际 系统 自然 出 现 差错 时 
的 行为 ， 因 而 可 以 获得 真实 的 数据 。 但 是 由 于 实际 运行 过 程 中 发 生 差错 的 频率 很 低 ， 因 此 基 
于 测量 的 方法 往往 需要 很 长 的 时 间 才 能 获得 足够 的 数据 进行 统计 分 析 。 基 于 解析 模型 的 方法 
是 指 建 立 计算 系统 的 数学 模型 ， 例 如 马尔 科 夫 链 模型 和 Peri 网 模型 ， 通 过 数学 模型 计算 出 
相关 指标 。 然 而 模型 自身 和 输入 参数 的 不 准确 有 可 能 导致 分 析 结 果 出 现 严重 偏差 。 故 障 注入 
是 指 按照 预先 选 定 的 故障 模型 , 采用 某 种 策略 将 故障 人 为 地 引入 到 运行 特定 工作 负载 的 目标 
系统 中 ， 并 且 观 察 和 分 析 引 入 故障 后 系统 的 行为 ， 从 而 获得 定性 或 者 定量 结果 的 实验 过 程 。 
作为 评估 计算 系统 可 靠 性 的 一 种 主要 方法 , 故障 注入 技术 的 提出 始 见 于 二 十 世纪 七 十 年 代 初 
期 IBM 公司 的 内 部 技术 报告 后 ， 之 后 被 工业 界 用 于 容错 计算 系统 的 可 靠 性 评估 ， 在 八 十 年 
代 中 期 受到 高 校 和 研究 部 门 的 关注 ， 目 前 已 在 各 种 计算 系统 的 可 靠 性 评估 中 得 到 广泛 应 用 。 
相 比 于 测量 和 解析 模型 方法 , 故障 注入 方法 更 为 经 济 灵活 , 在 可 靠 性 评估 中 占有 越 来 越 重 要 
的 地 位 ， 因 此 本 文 将 着 重 介绍 国内 外 在 基于 故障 注入 的 可 靠 性 评估 平台 方面 开展 的 工作 。 
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基于 故障 注 


入 的 可 靠 性 评估 研究 平台 综述 


2 ”基于 故障 注入 的 可 靠 性 评估 平台 概述 


负载 库 、 控 制 器 、 监 测 器 、 数 据 采 集 


基于 故障 注入 的 可 靠 性 评估 平台 主要 包括 目标 系统 以 及 故障 注入 、 故 障 库 、 负 


器 与 数据 分 析 器 等 模块 中 ， 如 图 2 所 示 : 


Lue uL 
目标 系统 


故障 注入 系统 


图 2. 基于 故障 注入 的 可 靠 性 评估 平台 的 框架 


故障 注入 模块 负责 将 故障 注入 到 目 


载 生 成 器 、 


标 系统 中 ; 监测 器 负责 跟踪 故障 注入 模块 执行 命令 的 


情况 并 在 必要 的 时 候 启 动 数据 采集 器 。 数 据 采集 器 在 线 地 收集 数据 ， 而 数据 分 析 器 离线 地 处 


H 
F 
和 电压 浪 涌 (Power Surge) 等 。 


里 并 分 析 数 据 。 由 控制 器 负责 控制 整个 实验 过 程 。 故 障 类 型 可 以 是 固定 型 故障 
ault)、 位 翻转 故障 CBit-flip Fault)、 桥 接 故 障 (Bridging Fault), 8H 


根据 注入 故障 的 实现 方式 , 故障 注入 方法 主要 分 为 通过 人 硬件 实现 的 故障 注入 ( 
Implemented Fault Injection, 简称 HWIFI)、 通 过 软件 实现 的 故障 注入 (Software-Implemented 


Fault Injection， 简 称 SWIFI) 和 基于 模拟 的 故障 注入 〈Simulation-Based Fault Injection). 


CStuck-At 


Eù (Spurious Current) 


Hardware- 


LEE KI A CES AN E A BUT SERRE EA HE S DER EP n o 按照 故障 
注入 器 是 否 直接 接触 目标 系统 ， 人 硬件 实现 的 故 隐 注入 可 进一步 分 为 接触 式 和 非 接触 式 两 类 。 


顾名思义 ， 接 触 式 硬件 实现 的 故障 注入 是 利用 管 脚 级 探 针 中 9、 夹具 9 或 者 插座 J， 直 接 在 
目标 芯片 上 产生 电压 或 者 电流 变化 。 非 接触 式 硬件 实现 的 故障 注入 是 指 利用 重 离子 辐射 
W909、 电磁 效应 趾 、 激 光 中 或 者 扫描 链 中 ， 在 目标 芯片 上 产生 杂 散 电流 。 硬 人 


F} 实 现 故 障 注 


入 方法 的 优点 是 可 以 在 目标 系统 的 任意 位 置 产生 故障 , 缺点 是 难以 精确 控制 故障 注入 的 时 间 


和 位 置 ， 并 且 有 可 能 损坏 目标 系统 。 


通过 软件 实现 的 故障 注入 方法 是 指 在 编译 时 或 者 运行 时 修改 程序 PP， 使 目 
标 系 统 的 正常 状态 在 程序 执行 过 程 中 发 生 改变 。 软 人 


入 故障 ， 还 能 对 操作 系统 注入 故障 。 


实现 的 故障 注入 不 仅 能 够 对 应 用 程序 注 
优点 是 易于 实现 且 成 本 低 ， 缺 点 是 由 于 不 能 够 将 故障 


注入 到 软件 不 可 访问 的 位 置 ， 软件 实现 的 故障 注入 只 能 够 部 分 模拟 实际 的 故障 情况 ; 时 间 精 


度 比 较 低 ， 不 适合 模拟 诸如 总 线 和 处 3 
此 有 可 能 使 工作 负载 发 生变 化 。 


基于 模拟 的 故障 注入 是 指 在 系统 设计 阶段 ,向 上 
的 系统 注入 故障 ， 可 以 在 开关 级 ™、 门 级 和 寄存 器 传输 级 "I、 行 为 级 4 等 不 同 扩 


理 器 故障 等 潜伏 期 较 长 的 故障 ;需要 修改 应 月 


程序 ， 基 


象 层次 上 进行 。 基于 模拟 的 故障 注入 方法 具有 良好 的 可 控 性 和 可 观 性 , 能 够 在 系统 设计 的 时 


1 VHSIC Hardware Description Language， 其 高 速 集成 电路 硬件 描述 语言 
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H VHDL'! 或 者 Verilog 硬件 描述 语言 设计 
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期 阶段 进行 可 靠 性 评估 ,有 助 于 设计 人 员 尽 早 采取 适当 的 容错 措施 提升 系统 的 可 靠 性 。 缺 点 
是 抽象 层次 越 低 的 故障 注入 模拟 实验 ， 虽 然 模拟 精度 越 高 ， 但 速度 越 慢 ， 获 得 有 意义 的 统计 
数据 所 需要 的 时 间 越 长 。 近年 来 有 研究 人 员 利 用 故障 精简 来 加 速 模拟 局, 以 及 采用 FPGA 
真 技 术 来 进行 可 靠 性 评估 P, 


在 下 一 节 中 , 我 们 将 选取 一 些 具有 代表 性 的 研究 工作 ,详细 介绍 基于 故障 注入 的 可 靠 性 
评估 平台 。 


3 ”代表 性 研究 工作 


3.1 AFIT (Advanced Fault Injection Tool) '*! 


AFIT 是 由 西班牙 瓦 伦 西亚 大 学 (Universitat de València) 开发 的 一 个 硬件 实现 的 故障 注 
入 平台 ， 采 用 夹具 对 目标 芯片 进行 管 脚 级 故障 注入 。 图 3 显示 了 AFT 的 总 体 框架 ， 包 括 : 
用 作 控 制 器 的 个 人 计算 机 、 同 步 与 触发 模块 、 定 时 模块 、 目 标 系 统 激 活 模块 、 事 件 读 取 模 块 、 
高 速 故 障 注入 模块 和 目标 系统 原型 。 


同步 与 触发 模块 的 作用 是 控制 故障 注入 实验 的 起 始 时 间 ; 定时 模块 的 作用 是 为 高 速 故障 
注入 模块 提供 40MHz 的 时 钟 和 故障 注入 使 能 信号 AI， 而 AI 信号 的 波形 随 注 入 故障 的 数量 
和 类 型 的 变化 而 变化 ; 目标 系统 激活 模块 的 作用 是 初始 化 目标 系统 原型 ; 事件 读 取 模 块 利用 
计数 器 和 踪迹 存储 费 决 定 什么 时 候 读 取 系 统 的 响应 。 高 速 故 障 注入 模块 的 结构 如 图 4 所 示 ， 
包括 注入 激活 逻辑 和 有 效 差错 检测 器 。 在 接收 到 来 自 定 时 模块 输出 的 AI 信号 后 ， 注 入 激活 
好 和 辑 就 连通 晶体管 。 当 连接 供电 电源 的 晶体 管 被 连通 时 ， 通 过 Iour 输出 信号 向 原型 系统 注 
入 逻辑 值 为 1 的 故障 ， 当 接地 的 晶体 管 被 连通 时 ， 通 过 Iour 向 原型 系统 注入 多 辑 值 为 0 的 
故障 。 有 效 差错 检测 器 的 作用 是 设置 连接 到 个 人 计算 机 的 有 效 差错 存储 器 MEE (memory of 
effective error) 信号 ， 当 Lour 确实 改 变 了 原型 系统 管 脚 的 逻辑 值 时 ，MEE 为 1， 表 明 故 障 注 
入 成 功 ， 和 否则 为 0 表明 故障 注入 不 成 功 。AFIT 能 够 以 40MHz 的 频率 向 目标 系统 注入 故障 ， 
并 且 能 够 选择 是 注入 瞬 态 故障 、 间 歇 故 障 还 是 永久 故障 ， 故 障 发 生 的 位 置 、 持 续 的 时 间 与 频 
率 均 可 控 。 其 中 ， 瞬 态 故 障 持续 时 间 控 制 范围 在 100ns 到 4hs 之 间 ， 间 歇 故 障 持续 时 间 控 制 


范围 为 100ns 至 2hs， 间 隔 控 制 范 围 至 65ms， 永 久 故 障 持续 时 间 为 1.2s。 


物理 故障 
o 注入 系统 


PC: 
故障 注入 软件 


t 。Vpp ViNy(4 伏 ) 十 
控制 J 
器 | ， S S AE SR 
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* lout 
N V E-3 IE 
高 速 故 pa "Activation Injection 强制 注入 
强制 注入 'Memry of Effective Error 端子 


容错 系统 原型 Q9 


图 3，AFIT 总 体 框图 图 4. 高 速 注入 模块 结构 


? Field Programmable Gate Array 现场 可 编程 门 阵列 


基于 故障 注入 的 可 靠 性 评估 在 


究 平台 综述 


3.2 Ftape (Fault Tolerance and Performance Evaluator) "” 


Ftape 是 由 美国 伊利 诺 伊 大 学 香槟 分 校 (University of Illinois at Urbana-Champaign ) 


的 一 个 软件 实现 的 故障 注入 


F 台 。 图 5 显示 了 Ftape 的 总 体 框架 。 注 入 故障 的 位 置 包 括 软件 


发 


可 访问 的 CPU 寄存 器 、 内 存 和 磁盘 子 系统 ， 故 障 类 型 为 单个 或 者 多 个 位 翻转 、 置 位 或 者 复 


位 。 注 入 故障 的 时 刻 和 位 置 既 可 以 按照 某 利 


随机 生成 ， 也 可 以 根据 负载 的 特点 来 生成 ( 例 妇 
加 速 故障 效应 )。 其 中 磁盘 系统 的 故障 注入 是 通过 运行 驱动 程序 中 的 一 段 代 码 来 实现 的 ， 例 


如 总 线 故障 或 者 定时 器 故障 ， 


故障 注入 特性 


基于 危害 性 
处 理 器 参数 : 
寡 存 器 组 


内 核 /用 户 空 间 
文本 数据 谁 / 
栈 空间 


3.3 DEPEND ""! 


DEPEND 是 由 美国 伊利 诺 
伊 大 学 香槟 分 校 开 发 的 另 
一 个 可 靠 性 评估 平台 ,采用 
了 基于 模拟 的 故障 注入 方 
法 , 由 相互 通信 的 进程 集合 
描述 计算 系统 的 行为 , 故障 
模型 为 功能 故障 .DEPEND 
的 总 体 框图 如 图 6 所 示 。 使 
用 时 首先 用 DEPEND 库 里 
的 对 象 编写 C++ 控制 程序 ， 
然后 编译 链接 为 运行 时 环 
Bí, 并 且 进 行 故障 注入 。 此 
后 启动 修复 , 并 生成 统计 数 
据 的 报告 。DEPEND 库 里 
的 对 象 包括 活动 部 件 ( 模 拟 


基本 的 服务 器 , 提供 先 到 先 服务 、 轮 叫 (Roundrobin) 


Fh 概率 分 布 函数 (例如 指数 分 布 或 者 


[将 故障 注入 到 某 些 使 


生 能 降级 情况 。 


图 5，Ftape 总 体 框架 


用 户 以 C++ 编写 
的 控制 程序 加 
编译 和 链接 


EERTE | 
行 时 环境 运行 


具有 控制 程序 和 DEPEND 


对 象 的 仿真 模型 


DRPEND 
对 象 库 


E 态 分 布 ) 来 
Tx EBERT. DÀ 


因此 没有 额外 的 硬件 开销 。Ftape 已 用 于 测量 两 个 Tandem 容 
普 计算 机 原型 的 可 靠 性 以 及 发 生 故 障 时 系统 的 ! 


工作 负载 特性 
组 成 (混合 成 分 ): 


处 理 器 函数 


内 存 函 数 


读 写 函数 


EN 


图 6. DEPEND 总 体 框架 


间 数 据 流量 


服务 策略 ,提供 手动 故障 注入 与 修复 )， 


故障 注入 器 《按照 设 定 的 概率 分 布 或 负载 特点 注入 故障 )， 校 验 和 《计算 校 验 和 )， 故 障 报告 
器 《收集 故障 统计 数据 、 显 示 MTBEF、MTBR-、 可 用 性 与 覆盖 率 ， 提 供 各 个 故障 的 


3 Mean Time between Repairs， 平 均 修 复 间 隔 时 间 


UA 
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AO, 表决 器 (模拟 一 个 带 有 超时 功能 的 基本 表决 器 ,允许 用 户 自 定义 表决 策略 ), 服务 器 (县 
有 活动 部 件 的 属性 ， 但 模拟 带 有 宛 余 部 件 的 服务 器 。 提 供 自 动 注入 故障 ， 自 动 修复 与 重 构 功 
能 )， 链 接 〈 模 拟 通信 通 道 ， 支 持 链 接 故 障 、 包 出 错 、 丢 包 以 及 用 户 定 义 的 故障 ， 支 持 自动 
重 试 )， 多 模 见 余 器 (模拟 双 机 互 测 、 三 模 见 余 和 N REIR) 和 故障 管理 器 (记录 故障 并 关 
闭 超出 故障 闵 值 的 部 件 )。 


[28] 
) 


3.4 FuSE (Fault injection using SEmulation 
FuSE 是 由 奥地利 维也纳 技术 大 


学 (Vienna University of Technology) 
开发 的 一 个 基于 现场 可 编程 门 阵列 

(FPGA) 仿真 的 可 靠 性 评估 平台 ,用 
于 提高 故障 注入 模拟 实验 的 速度 ， 其 
总 体 框图 如 图 7 所 示 。 其 中 SEmulator 
引擎 支持 三 种 模式 ， 模拟 模式 一 一 与 
传统 的 硬件 描述 语言 模拟 一 样 ， 测 试 
用 例 〈Testbench) 和 被 测 设 计 CDUT) 
都 运行 在 主机 上 ， 模 拟 速度 大 约 为 每 
秒 数 生 时 钟 节拍 ; 协同 模拟 模式 一 一 
被 测 的 全 部 设计 或 者 部 分 设计 被 下 载 
到 HMX2-AS2 FPGA 开发 板 中 ， 因 此 
将 在 读 写 管理 OO Manager) 的 控制 
下 ， 通 过 现场 可 编程 门 阵列 的 
PClexpress 接口 把 测试 用 例 输 出 的 信 
号 输入 到 被 仿真 的 电路 中 ， 同 时 把 被 
观测 的 信号 送 回 主机 ， 仿 真 速度 最 高 

可 达到 每 秒 20 万 时 钟 节拍 ; 时 钟 加 速 模式 一 一 以 最 高 速度 在 现场 可 编程 门 阵列 中 进行 仿真 ， 
由 于 在 测试 用 例 和 被 测 设计 之 间 没 有 交互 , 因此 被 测 设计 的 内 部 信号 状态 不 可 观测 , 仿真 速 
度 最 高 可 达 100MHz. 


4 我 们 的 工作 


为 提高 微 处 理 器 的 容错 能 力 , 我 们 在 一 款 低 功 耗 微 处 理 器 中 实现 了 基于 自 测 试 (Built-In 
Self-Test, BIST)、 自 诊断 (Built-In Self-Diagnosis, BISD) 和 自修 复 (Built-In Self-Repair, BISR) 
(简称 3S) 的 可 靠 性 设计 ， 该 芯片 采用 0.18pm 的 中 芯 国 际 (SMIC) 标准 工艺 库 投 片 生产 。 
我 们 采用 了 基于 模拟 的 故障 注入 方法 来 检验 该 处 理 器 的 容错 能 力 , 特色 是 将 故障 注入 逻辑 设 
计 在 处 理 器 中 ， 因 此 无 论 是 在 RIL 级 、 门 级 还 是 封装 后 的 芯片 ， 都 可 以 由 用 户 自 定义 注入 
故障 的 数量 、 位 置 和 时 刻 ， 并 且 最 多 可 向 处 理 器 的 SRAM 中 注入 20 个 故障 字 ， 故 障 类 型 为 
司 定型 故障 。 为 实现 计算 机 与 处 理 器 芯片 中 故障 注入 模块 、 内 建 自 测试 和 内 建 自修 复 模 块 的 
通信 和 控制 ,我们 设计 了 一 个 控制 电路 来 实现 在 测试 与 修复 模式 或 故障 注入 模式 下 内 部 电路 
与 外 部 计算 机 的 通信 ， 并 制定 了 相应 的 通信 协议 。 


如 图 8(a) 所 示 的 可 靠 性 评估 平台 包括 一 个 SRP" 传 感 节点 、 四 个 普通 的 传 感 节点 和 一 个 


EHLI EEL [a £r ir S V-ZXIAH 


故障 激活 


图 7.FuSE 总 体 框架 


^ Register Transfer Level， 寄 存 器 传输 级 
? Static Random Access Memory, PPA BENLI IKAS 
6 Self-Repairable Microprocessor， 自 修复 微 处 理 器 
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数据 采集 节点 。 工 作 负 载 为 无 线 传 感 网 络 应 用 。 由 SRP 传 感 节 点 和 普通 的 传 感 节点 收集 的 
光 强 数据 通过 数据 采集 节点 传输 到 主机 的 控制 软件 进行 分 析 和 显示 。 图 8(b) 显 示 了 在 SRP 
中 注入 8 个 故障 后 ，SRP 通过 自 测 试 自 诊断 自修 复 ， 最 终 又 恢复 正常 工作 的 过 程 。 


et 


网 络 拓扑 


(a). SRP 节点 


Set, Verson 1.1 [See 121 


故障 注入 控制 comme f) 


ah pasi 


ensing D il: 


(b) SRP 节点 的 故障 注入 、 自 测试 、 自 诊断 与 自修 复 过 程 
Kj8. SRP 处 理 器 在 无 线 传 感 网 络 节 点 中 的 应 用 


5 RWE 


本 文 综述 了 国内 外 在 基于 故障 注入 的 可 靠 性 评估 平台 方面 开展 的 研究 , 分 别 介绍 了 基于 
硬件 实现 的 故障 注入 、 软 件 实现 的 故障 注入 、 基 于 模拟 和 基于 FPGA 仿真 的 四 项 有 代表 性 的 
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MATRITER 3S 能 力 的 处 理 器 设计 中 ， 利 用 基于 模拟 的 故障 注入 进行 的 
可 靠 性 评估 工作 。 如 何 针对 多 核 处 理 器 以 及 高 端 计算 系统 开发 相应 的 可 靠 性 证 


NI 


估 研 究 平台 ， 


这 是 我 们 未 来 将 要 开展 的 工作 。 
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